Data Vault(資料金庫?以下簡稱DV)是一種資料架構模型和技巧,而主要是為了組織大規模且高擴展性(Scalability)的資料倉庫(Data Warehouse)。DV 2.0是原作者在2013年為了適用數據處理上的一些新最佳實踐(Best Practice)而翻新與優化過的版本。由於新項目基本上不會考慮使用DV 1.0,本文就直接跳過。
相對於Kimball、Inmon、或其他常見的資料倉庫的設計,DV在設計和運用都會比較嚴格而規定性,也在實施上上比較複雜。如果沒有需要解決以下問題的資料倉儲項目,可能套用比較簡單的Kimball會更適合:
顧名思義,Data Vault有點像一個資料的大金庫,所有進來的資料都會被整理到一個個小保險箱裡,有需要時各個團隊可以再從金庫裡來提取。DV的設計上運用了高重用性(reusability)與模塊化(modularity)的資料模型與源資料的集中管理,而完成擴展性強的數據倉儲系統。
在後續的幾篇文章內,會再分享具體DV理論上的設計原則,用dbt如何實踐,與分享一些實際案例上的考量!
Building a Scalable Data Warehouse with Data Vault 2.0:DV發明者Daniel Linstedt與Michael Olschimke的原作,對DV 2.0有興趣的朋友可以參考